ch 图 侣 从 搬 昌 和 


第 62 卷 第 9 期 2018 年 5 月 


基于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 方法 研究 


四 夏 立 新 郑 路 张 玉 晨 ， 翟 姗 姗 “ 孙 晶 琼 
华中 师范 大 学 信息 管理 学 院 武汉 430079 


摘要 : [目的 /意义 ] 针 对 学 术 期 刊 文 本 资源 语义 标注 仍 存 在 的 通用 本 体 难以 构建 ,标注 粒度 单一 两 大 问 
题 ,提出 基于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 方法 ,从 而 进一步 推进 语义 标注 的 应 用 发 展 ,更 好 满足 用 户 的 多 
粒度 学 术 信息 需求 。[ 方 法 /过 程 ] 在 对 《中 国 汉语 主题 词 表 了》 进行 SKOS 描述 的 基础 上 ,以 学 术 期 刊 文本 资源 为 
对 象 ,实现 其 多 粒度 语义 标注 ,并 通过 实证 研究 验证 该 方法 的 可 行 性 。[ 结果 /结论 ] 利用 SKOS 实现 对 学 术 期 
刊 文本 资源 进行 多 粒度 语义 标注 , 较 之 当前 学 术 检 索 系 统 中 的 标注 结果 ,在 “ 查 全 ”“ 查 准 ”“ 内 部 特征 检索 入 


口 “ 检 索 结果 反馈 形式 "4 个 方面 具有 一 定 优势 。 


关键 词 : 语义 标注 “多 粒度 SKOS 撤 词 表 ”学术 期 刊 
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) 学 术 期 刊 是 学 术 成 果 展 示 与 交流 的 重要 平台 , 随 
着 又 字 化 的 不 断 发 展 ,海量 的 的 学 术 信息 在 满足 用 户 
研 帝 需求 的 同时 ,也 带 来 了 严重 的 信息 过 载 压力 ,使 用 
户 双 以 高 效 地 提取 出 所 需 的 学 术 人 信息" 。 同 时 ,不 同 
来 源 的 学 术 期 刊 标准 和 规范 不 同 , 给 学 术 期 刊 的 传播 
和 莫 享 带 来 了 不 便 。 语 义 标 注 的 出 现 为 学 术 期 刊 提 供 
了 部 的 知识 组 织 方法 ,通过 对 原始 数据 作 标 记 , 使 其 具 
有 短 义 信息 ,不 仅 人 可 以 理解 ,而 且 使 机 器 也 可 以 理 
解 志 ,大 大 提高 了 学 术 期 刊 的 检索 与 利用 效率 。 

目前 基于 本 体 的 语义 标注 方法 使 用 最 为 广泛 ,但 
直接 构建 一 个 领域 本 体 往 往 消耗 较 大 ,更 需要 领域 专 
家 的 协助 。 不 同 本 体 之 间 也 常常 存在 异 构 问题 ,难以 
通用 和 融合 。 因 此 ,如 何 构建 一 个 真正 通用 的 本 体 成 
为 了 基于 本 体 的 语义 标注 方法 的 一 大 瓶颈 。 万 维 网 联 
盟 (W3C) 于 2004 年 公布 的 简单 知识 组 织 系统 (simple 
knowledge organization system ，SKOS ) 标准 提供 了 对 受 
控 词 表 的 知识 管理 及 语义 处 理 方案 ”, 使 用 SKOS 化 
的 受 控 词 表 进 行 语义 标注 成 为 了 解决 这 一 问题 的 一 种 
可 能 方案 。 此 外 ,目前 针对 学 术 期 刊 的 标注 更 多 地 使 


用 粗 粒 度 的 标注 方法 ,学 术 期 刊 内 部 所 蕴含 的 大 量 信 
息 无 法 被 进一步 检索 、 过 滤 和 提取 ;为 解决 这 一 问题 ， 
也 有 学 者 进行 了 学 术 期 刊 的 细 粒 度 标注 ,将 标注 单位 
深入 到 最 小 知识 单元 。 无 论 粗 粒度 或 细 粒 度 的 标注 方 
法 都 仅 能 实现 单一 粒度 的 知识 组 织 , 但 用 户 的 学 术 信 
息 需 求 却 常 常 呈现 多 粒度 性 。 因 此 ,单一 粒度 的 标注 
将 无 法 满足 用 户 的 学 术 信息 需求 ,多 粒度 的 标注 则 成 
为 了 满足 用 户 多 粒度 的 学 术 信息 需求 的 基础 。 

为 了 尝试 进一步 推动 语义 标注 的 应 用 发 展 ,更 好 
地 满足 用 户 的 多 粒度 学 术 信息 需求 ,本 文 以 SKOS 资 
源 描述 框架 与 相关 技术 为 基础 ,探讨 学 术 期 刊 文本 资 
源 的 多 粒度 语义 标注 的 实现 途径 。 


2 相关 研究 


2.1 SKOS 研究 现状 

SKOS 是 以 RDF 资源 描述 框架 为 基础 ,用 来 描述 
受 控 词 表 的 基本 结构 和 概念 的 标准 语言 。 受 控 词 表 可 
通过 SKOS 资源 描述 框架 转换 为 与 RDF、OWL 兼容 的 
概念 模型 ,实现 语义 化 的 信息 资源 共享 。 

自 SKOS 资源 描述 框架 发 布 以 来 ,国内 外 对 SKOS 


# 本 文系 国家 社会 科学 基金 重大 项 目 " 基 于 多 维度 聚合 的 网 络 资源 知识 发 现 研究 "( 项 目 编号 :13&ZD183 ) 和 国家 社会 科学 基金 青年 项 目 “ 面 
向 语义 出 版 的 数字 图 书馆 资源 多 维度 聚合 研究 ”( 项目 编号 :15CTQ007 ) 研究 成 果 之 一 。 

作者 简介 : 夏 立 新 (ORCID :0000 -0002 -4162 -2282 ) ,教授 ,博士 生 导 师 ; 郑 路 (ORCID :0000 -0001 -5870 -9803) ,博士 研究 生 ; 张 玉 晨 (OR- 
CID :0000 -0003 -1451 -7871) ,硕士 研究 生 ,通讯 作者 ,E-mail:brettzhang_edu@163. com; 翟 姗 姗 (ORCID :0000 -0002 -2787 -0183 ) ,副教授 ; 


孙 蝇 琼 (ORCID :0000 -0002 -7074 -9602 ) ,硕士 研究 生 。 


收 稿 日 期 :2017 -10 -22 修 回 日 期 :2018 -01 -17 本 文 起 止 页 码 :123 -133 本文 责任 编辑 : 易 飞 


123 


图 二 情报 三 作 


第 62 卷 第 9 期 2018 年 5 月 


站 hinaV i 
CNINaXIV 呈 和 运 


的 研究 主要 集中 于 受 控 词 表 的 SKOS 转化 问题 。 目 前 
英文 受 控 词 表 的 SKOS 化 已 有 不 少 成 功 的 例子 ,在 
W3C 的 SKOS 官方 网 站 中 Datasets 页 面 已 共享 了 多 达 
39 个 SKOS 化 的 受 控 词 表 “ ,但 遗憾 的 是 其 中 并 无 中 


资料 集 关 联 到 维基 百科 ,最 终 将 数据 集 以 关联 数据 
(linked data) 的 形式 发 布 ”。 此 后 ,众多 学 者 以 该 项 
目 为 基础 ,开展 了 学 术 文 本 资源 语义 标注 的 实践 尝试 ， 
如 下 .Norberto 等 学 者 提出 了 一 种 基于 DBpedia 的 协作 


文 受 控 词 表 。 对 于 中 文 受 控 词 表 来 说 ,学 者 们 的 研究 
主要 集中 在 《汉语 主题 词 表 》 或 《中 国 分 类 主题 词 表 》 
的 SKOS 转换 上 。 范 炜 提出 了 利用 SKOS 构造 机 器 可 
理解 的 知识 组 织 体系 ,并 以 叙 词 表 为 例 进行 了 实例 研 
究 5 。 贾 君 枝 针 对 《汉语 主题 词 表 》 对 SKOS 的 内 容 及 
结构 作 明 确 描述 ,完成 了 《汉语 主题 词 表 》 的 SKOS 描 
述 示范 由。 此 外 , 张 士 男 等 设计 了 《中 国 科学 院 图 书馆 
图 书 分 类 法 》 的 SKOS 措 述 方案 ” 。 

目前 已 SKOS 化 的 受 控 词 表 虽然 已 有 一 定 成 果 但 
还 未 能 得 到 广泛 应 用 ,相关 研究 并 不 集中 。J. Pastor- 
siex 等 将 SKOS 方案 与 语义 网 中 其 他 受 控 词 表 的 表 
示 为 案 进 行 了 比较 分 析 , 并 最 终 认为 SKOS 是 叙 词 表 


语义 标注 框架 ,该 框架 充分 利用 了 人 工 语义 标注 的 优 
势 ,将 基本 用 户 操作 与 语义 标注 操作 融合 ,同时 减轻 了 
非 专家 标注 者 的 负担 ; 汤 怡 杰 等 将 中 国 科 学 院 集成 
信息 平台 (CASIIP ) 与 DBpedia 数据 集 相 结合 ,利用 
DBpedia 内 部 的 信息 资源 描述 和 组 织 形式 将 CASSIP 
中 的 数据 信息 进行 语义 标注 ,实现 CASIIP 平台 的 语义 
化 扩展 。 

综 上 ,针对 于 学 术 文本 资源 的 语义 标注 研究 已 取 
得 了 一 定 的 成 果 积累 ,但 其 研究 主要 以 学 术 资 源 出 版 
单位 为 对 象 ,多 针对 于 整个 文档 或 整个 资源 集合 ,从 标 
注 结构 来 说 ,并 未 深入 到 茶 篇 文 档 的 章节 中 ,从 标注 内 
容 来 说 ,并 未 涉及 到 标识 文档 内 容 特征 的 知识 单元 。 


的 最 佳 语义 描述 方案 "。 王 芋 等 从 宏观 上 讨论 了 使 用 
SKGS 对 语义 网 进行 知识 组 织 的 模型 ,通过 对 SKOS 模 
型 呆 类 与 属性 的 扩展 增强 了 对 知识 的 描述 能 力 ”。 能 


Xi 详细 分 析 了 SKOS 对 网 络 环境 下 信息 资源 进行 标 
的 可 行 性 "1 。 


换言之 ,在 对 学 术 文 本 资源 所 进行 的 语义 标注 研究 中 ， 
并 未 考虑 更 细 粒 度 的 语义 标注 方案 , 且 缺 乏 一 个 使 
学 术 文 本 资源 语义 描述 更 加 结构 化 规范 化 的 通用 本 
体 。 这 两 大 问题 则 直接 影响 了 用 户 多 粒度 的 学 术 信息 
需求 ,用户 学 术 信息 需求 越 深 入 ` 越 细致 , 越 无 法 有 效 


锟 章 于 受 控 词 表 的 语义 描述 方面 ,并 且 受 控 词 表 SKOS 
LE 已 相当 丰富 ,但 其 后 续 的 应 用 研究 相对 欠 


> EE 
io 


息 弦 源 中 的 概念 .属性 .关系 等 语义 信息 标注 为 计算 机 


可 理解 的 元 数据 ,实现 标注 信息 与 资源 的 关联 。” 
目前 ,针对 于 学 术 期 刊 文本 资源 所 采用 的 语义 标 
注 方法 主要 是 基于 本 体 技术 实现 的 。 在 理论 层面 , 魏 
墨 济 等 提出 一 种 基于 领域 本 体 的 学 科 专业 文档 的 语义 
标注 方法 ” ; 冷 伏 海 等 综合 运用 语义 标注 技术 规则 
抽取 技术 以 及 正则 表达 式 技术 ,提出 一 种 抽取 学 术 文 
献 中 涉及 的 具体 理论 等 学 术 信息 的 方法 ” ;英国 谢 菲 
尔 德 大 学 研发 的 文本 工程 通用 框架 GATE 是 基于 多 本 
体 的 语义 标注 方法 方面 的 突出 代表 ,但 不 足 的 是 该 平 
台 的 多 本 体 之 间 没 有 建立 映射 关联 ,难以 互联 互 
通 ” 。 此 外 也 有 很 多 学 者 提出 了 很 多 更 为 具体 的 基 
于 本 体 的 学 术 期 刊 文本 资源 语义 标注 优化 方法 ,但 大 
部 分 方法 还 处 于 尝试 阶段 。 在 实践 层面 ,DBpedia 项 目 
是 文本 资源 语义 标注 的 典型 代表 ,该 项 目 从 Wikipedia 
(维基 百科 ) 的 词 条 里 抽取 出 结构 化 的 信息 ,并 将 其 他 
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定位 自身 所 需 的 信息 资源 。 因 此 ,本 研究 在 已 有 的 研 
究 基 础 上 ,通过 对 《汉语 主题 词 表 》 的 SKOS 化 ,进一步 
实现 学 术 期 刊 文 本 资源 的 多 粒度 语义 标注 。 


3 SKOS 在 学 术 期 刊 文本 资源 多 粒度 


语义 标注 中 的 应 用 分 析 
3.1 多 粒度 语义 标注 的 优势 
多 粒度 的 语义 标注 简单 来 说 就 是 将 标注 文档 内 容 


进行 粒度 划分 之 后 ,分别 对 每 个 粒度 层 进行 语义 标注 ， 
形成 有 层次 有 结构 的 语义 标注 结果 。 粗 粒度 是 对 某 
一 主题 全 面 的 描述 ;中 粒度 是 对 某 一 主题 其 中 某 一 方 
面 的 描述 ; 细 粒 度 是 对 某 一 具体 问题 的 描述 。 

多 粒度 标注 对 文档 的 揭示 既 有 整体 性 的 概括 也 有 
深入 文档 具体 内 容 的 描述 ,丰富 的 标注 成 果 较 之 目前 
常 使 用 的 粗 粒度 或 细 粒 度 的 单一 粒度 的 标注 ,不 论 是 
对 进一步 更 高 层次 的 知识 组 织 形 式 还 是 用 户 的 检索 反 
馈 都 能 提供 更 大 的 支持 。 

3.2 ”SKOS 描述 叙 词 表 的 优势 

目前 已 经 有 了 很 多 基于 XML 和 RDF 的 叙 词 表 描 
述 方案 ,还 有 一 些 在 某 些 方面 的 替代 方法 ,如 主题 图 
等 。 与 其 他 人 氢 词 表 的 表示 方案 相 比 ,SKOS 主要 具有 表 
1 所 示 的 明显 优势 : 


夏 立 新 ， 郑 路 ， 张 玉 层 ， 
123 - 133. 


等 . 基于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 方法 研究 [J]. 图 
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表 1 SKOS 较 其 他 叙 词 表 描述 方案 的 优势 


投 词 表 描 述 方案 
XML 词汇 (ZTHES, MESH) 


SKOS 的 相对 优势 
使 用 RDF 在 描述 层面 即 可 集成 语义 


概念 地 图 ,主题 图 (XTM ) 基于 OWL 在 逻辑 层面 集成 语义 
其他 RDF 词汇 概念 描述 的 变化 更 加 灵活 且 标 准 化 
(LIMBER ,CERES ,ILRT) 
OWL 本 体 描述 和 维护 任务 简单 


3.3 《汉语 主题 词 表 》 的 SKOS 描述 

本 文选 择 4 汉 语 主题 词 表 》 的 SKOS 描述 成 果 作为 
多 粒度 语义 标注 方法 的 标注 工具 。 下 面 将 对 《汉语 主 
题词 表 》 的 SKOS 描述 过 程 进行 说 明 。 


中 文 叙 词 表 中 常见 的 词汇 关系 


表 2 《汉语 主题 词 表 》 的 术语 描述 属性 


对 应 的 SKOS 概念 属性 


《汉语 主题 词 表 》 中 的 叙 词 或 非 叙 词 都 是 作为 
SKOS 概念 的 词汇 标签 进行 描述 的 。 如 果 SKOS 标准 
语言 中 没有 与 词汇 属性 相对 应 的 属性 , 则 对 SKOS 标 
准 语言 进行 定制 化 扩展 ,增加 新 属性 ,扩展 部 分 称 为 
SKOSEX 语言 ,在 对 《汉语 主题 词 表 》 的 描述 中 本 文 需 
要 使 用 部 分 SKOSEX 语言 进行 属性 描述 。 除 概念 及 语 
义 关系 描述 外 也 有 一 些 属性 是 为 创建 词 表 而 设立 的 ， 
如 增 词 时 间 、 词 频 、 词 类 型 编辑 次 数 等 ,这 些 属性 不 需 
向 用 户 展示 ,因此 可 以 忽略 。 最 终 , 《汉语 主题 词 表 》 
中 的 术语 本 文采 用 表 2 中 的 属性 进行 描述 : 


说 明 


《中 国 图 书馆 分 类 法 》 


skos : broad Match 


范畴 skos :broadMatch 
汉语 拼音 skos :prefLabel 
xml:lang =“zh-latn” 
英文 skos :prefLabel 
xml :lang =“en” 
中 文 skos :prefLabel 
xml:lang =“zh” 
缩 略 语 skosex :abbreviation 
同 项 skos :exactMatch 
代 项 skos :altLabel 
xml:lang = “zh” 
属 项 skos :broader 
分 项 skos :narrower 
参 项 skos :related 
族 项 skos :topBroader 
领 词 skos :leadBroader 
见 代 skos :related 
和 项 skosex :coordinationOf 
用 和 skosex :coordinationOf 
一 组 代 skosex :coordinatedTo 
代码 skos :notation 
注释 skos :note 
历史 注释 skos :historyNote 
户 评价 skosex :evaluationNote 


其 中 ,xmlns:skos 表示 W3C 定义 的 SKOS 标准 语 
言 ,xzmlns :skosex 表示 对 SKOS 的 扩展 语言 ,属性 xml: 
lang 的 语言 代码 由 《 正 TF BCP47》 标 准 定义 。 

如 《汉语 主题 词 表 》 中 的 氢 词 “情报 检索 ”的 部 分 


SKOS 语言 描述 示例 见 图 


jk 


[e) 


4 ”基于 SKOS 的 学 术 期 刊 文本 资源 多 


粒度 语义 标注 框架 设计 
本 文 研究 流程 如 图 2 所 示 。 具 体 而 言 : 中 进行 叙 


词 表 语 义 描述 ,包括 语义 关系 的 揭示 ;@ 设 计 学 术 期 刊 
文本 资源 的 多 粒度 标注 过 程 ;@ 结 合 二 者 实现 基于 


《中 国 图 书馆 分 类 法 》 中 所 属 的 世 
范畴 索引 中 所 属 的 范畴 号 
令 词 的 拼音 表示 


AL 
由 


叙 词 的 英 译名 称 
叙 词 的 中 文 标签 
叙 词 的 缩 略 语 ,一 种 可 选 标签 


两 个 叙 词 之 间 的 等 同 关系 
与 叙 词 同 义 的 非 叙 词 


上 位 概念 


下 位 概念 


相关 概念 
族 首 间 

分 词 族 的 族 首 记 
把 叙 词 引入 到 其 他 相关 叙 词 
组 配 成 复合 概念 的 一 个 成 分 概念 
组 配 生成 复合 概念 的 成 分 概念 
单一 叙 词组 配 而 成 的 复合 概念 
令 词 对 应 的 某 种 标记 符号 
注释 属性 
历史 注释 
用户 评价 注释 
SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 ;按照 基 
于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 方法 实 
施 方 案 ,以 期 刊 论文 为 例 进行 标注 ,验证 该 方法 的 可 行 
性 ,并 对 标注 结果 进行 评估 。 

基于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 
框架 可 分 为 3 个 主要 部 分 : 

(1) 叙 词 表 向 SKOS 转化 。 叙 词 表 是 本 方法 在 标 
注 过 程 中 选择 使 用 的 情报 检索 语言 ,在 语义 标注 中 需 
要 先 将 传统 的 叙 词 表 中 的 概念 和 语义 关系 使 用 SKOS 
标准 描述 语言 表达 ,SKOS 化 的 叙 词 表 是 该 方法 进行 语 
义 标注 的 基本 工具 。 本 文选 择 《 汉 语 主题 词 表 》 的 
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ChinaXiv 合 作 期 刊 


<rdf:RDF 
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” 
xmlns:rdf=”http://www.w3.org/2004/02/skos/core#”> 


<skos:Concept rdf:about=”http://www.example.com/concepts# 情 报 检 索 ”> 


<skos:prefLabel> 情 报 检 索 <skos: prefLabel> 

<skos:prefLabel>information retrival<skos:prefLabel> 
<skos:altLabel> 文 献 检 索 <skos:altLabel> 

<skos:altLabel> 信 息 检 索 <skos:altLabel> 
<skos:altLabel> 文 献 信息 检索 <skos:altLabel> 

<skos:narrower rdf:resource=”http://www.example.com/concepts# 检 索 语言 /> 
<skos:related rdf:resource=”http://www.example.com/concepts# 检 索 ”/> 
<skos:related rdf:resource=”http://www.example.com/concepts# 情 报 检 索 工具 ”/> 
<skos:related rdf:resource=”http://www.example.com/concepts# 查 询 ”/> 


</skos: Concept> 
</rdf:RDF> 


1 叙 词 “情报 检索 "的 SKOS 描述 


于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 研究 


叙 词 表 的 
SKOS3 


于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 方法 实证 研究 


便 2。 基于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 方法 框架 


sR 描述 成 果 作为 多 粒度 语义 标注 方法 的 标注 工具 。 
《汉语 主题 词 表 》 的 SKOS 描述 方案 已 于 3.3 小 节 说 
明 。 

(2) 学 术 期 刊 文本 资源 的 多 粒度 处 理 及 标注 词 选 
取 。 在 进行 语义 标注 之 前 ,标注 对 象 需要 完成 3 个 基 
本 处 理 。 首 先 , 对 标注 对 象 进行 多 粒度 的 层次 构建 , 通 
过 学 术 期 刊 文本 资源 的 粒度 划分 将 学 术 期 刊 内 容 按 照 


SKOS 描述 的 叙 词 表 对 学 术 期 刊 文本 资源 进行 语义 标 
注 ,并 将 结果 通过 XML 结构 化 文档 进行 组 织 ,保留 多 
粒度 标注 结果 的 结构 层次 。 在 语义 标注 过 程 中 需要 进 
一 步 根据 需要 进行 概念 描述 .语义 关系 揭示 等 ,其 中 还 
包括 标注 词 中 的 非 叙 词 的 描述 等 。 
4.1 学 术 期 刊 文本 资源 标注 粒度 划分 

通过 学 术 期 刊 的 结构 特征 分 析 , 本 文 将 学 术 期 刊 
文本 资源 的 标注 粒度 层次 做 了 划分 ,如 图 3 所 示 : 


粒度 | 全 文 | A 
) | 
| | 章 
中 粒度 I a 
| | EE | 未 
注 


| 寺 
+ 
| ee 


细 粒 度 | 段 | | 段 | | 段 | | 段 | | 段 | | 段 | 用 | | 


类 


图 3 学 术 期 刊 文本 资源 标注 粒度 层次 划分 


依据 学 术 期 刊 文本 资源 的 主题 结构 特征 ,本 文 在 
标注 过 程 中 的 对 学 术 期 刊 文本 资源 的 标注 粒度 划分 如 
下 :中 9 粗 粒 度 : 学 术 期 刊 全 文 内 容 ;名 中 粒度 :学 术 期 刊 
章 . 节 单 位 ;@ 细 粒度 :学术 期 刊 自然 段落 。 

在 学 术 期 刊 文本 资源 中 , 较 粗 粒度 的 内 容 包 含 了 
其 下 进一步 划分 出 的 较 细 粒度 的 内 容 , 二 者 在 标注 过 
程 中 往往 存在 一 定 的 等 级 关系 ,因此 本 文选 择 由 下 至 
上 的 标注 方向 , 即 从 学 术 期 刊 文本 资源 的 自然 段落 先 
进行 标注 ,再 标注 章节 等 中 粒度 内 容 , 最 后 以 全 文 为 单 
位 进行 粗 粒度 标注 。 

4.2 学 术 期 刊 文本 资源 的 多 粒度 分 词 

本 文 将 使 用 由 中 国 科 学 院 开发 的 汉语 分 词 系统 
NLPIR 进行 分 词 。NLPIR 分 词 工具 用 到 的 字典 主要 有 
词典 库 coreDict \ 词 与 词 间 的 关联 库 BigramDict\ 人 名 库 
nr、 翻 译 人 名 库 tt、 地 名 库 ns。 学 术 期 刊 的 多 粒度 分 词 
过 程 是 在 学 术 期 刊 文本 资源 的 粒度 划分 基础 上 由 下 至 
上 ,从 底层 段落 开始 对 各 个 粒度 单位 逐一 依次 分 词 。 
分 词 过 程 可 表示 为 如 图 4 所 示 : 


不 同 大 小 的 粒度 单位 构建 形成 等 级 树 
状 结构 。 其 次 ,对 学 术 期 刊 内 容 依照 
粒度 划分 结果 进行 多 粒度 的 分 词 。 最 


1 

; 当前 粒度 文本 分 割 为 句 | 查找 coreDict 字典 | 查找 biGramDict 字典 > 初次 切 分 
f Eo f + 

| 下 一 粒度 文本 内 容 + 结果 优化 ， 标 注 词性 Fe 地 理 信息 识别 人 名 识别 


后 ,在 多 粒度 分 词 的 结果 上 进行 多 粒 
度 标注 候选 词 的 重要 性 计算 , 即 构建 
标注 词 评价 指标 ,计算 各 词 得 分 后 依 
据 得 分 高 低 选 取 当 前 粒度 的 标注 词 。 

(3) 基 于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 标注 
及 结果 生成 。 通 过 计算 选择 出 合适 的 标注 词 后 使 用 
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4 基于 NLPIR 分 词 工具 的 多 粒度 分 词 过 程 


结合 图 3 中 的 粒度 划分 结构 ,本文 的 多 粒度 分 词 
过 程 大 致 如 下 :首先 取 细 粒度 单位 文本 “上 段 ” 使 用 
NLPIR 工具 进行 分 词 ,按照 图 4 中 所 示 NLPIR 工具 的 


夏 立 新 ， 郑 路 ， 张 玉 尾 
123 - 133. 


基于 SKOS 的 学 术 期 刊 文本 资源 多 粒度 语义 标注 方法 研究 [J]. 


分 词 流程 完成 分 词 ,分 词 完 成 后 将 各 个 段落 的 分 词 结 
果 分 别 存储 并 做 好 标识 ;然后 再 取 中 粒度 单位 文本 
”, 再 次 按照 以 上 分 词 流程 完成 分 词 ,将 各 节 的 分 
RE 
析 处 理 流 程 与 文本 “ 节 ” 相 同 ;最 后 取 粗 粒度 文本 “全 
文 " 按 照 以 上 分 词 流程 完成 分 词 ,进行 存储 并 做 好 标 
识 。 多 粒度 的 分 词 是 为 了 区 别 分 词 的 文本 对 象 基数 不 
同时 对 分 词 算法 与 分 词 结果 造成 的 细微 差距 , 如 分 词 
中 因 粒 度 文本 的 不 同 产生 的 “新 词 发 现 "结果 的 差异 ， 
因此 往往 某 一 章节 下 各 个 “ 段 " 的 分 词 结果 的 总 和 并 
不 能 完全 等 同 与 该 章节 文本 的 一 次 性 分 词 结果 。 通 过 
多 粒度 的 分 词 可 以 全 面 把 握 当 前 粒度 单位 文本 的 全 
貌 ,从 而 得 到 最 能 合适 表达 当前 粒度 文本 内 容 的 分 词 
结果 ,为 下 一 步 标注 词 的 选取 做 好 准备 工作 。 
4] 色 学 术 期 刊 文本 资源 多 粒度 标注 词 的 选取 
在 进行 标注 词 的 选取 计算 之 前 还 应 对 多 粒度 的 分 
请 狂 果 进行 预 处 理工 作 , 其 中 最 重要 的 即 是 去 除 停 用 
词 写 去除 停 用 间 能 排除 无 意义 的 高 频率 词 对 标注 结 
的 影响 。 去 除 停 用 词 后 就 得 到 具有 标注 意义 的 候选 
语 最 后 对 候选 词 进行 重要 性 得 分 计算 即 可 得 出 标注 
遍 sj 本 方法 在 候选 词 的 重要 性 得 分 计算 中 使 用 如 图 5 
所 司 的 以 下 指标 : 


候选 词 重 要 性 


Se 


村 四 Le - "OU 
chinaXiv :20 
| | 


发 | 于 这 澳 一 
到 腑 冰 

济 水 可 蛋 

济 水 党 蛆 

测 业 米兰 


图 5 ”学术 期 刊 文本 资源 多 粒度 标注 候 
选 词 重要 性 计算 指标 


(1)TF-IDF 值 。 不 同 的 粒度 层次 中 , 同一 候选 词 
的 TF-IDF 的 值 都 应 根据 粒度 单位 重新 计算 。TF 值 指 
该 候选 词 在 当前 标注 粒度 单位 内 容 中 出 现 的 频率 ,其 
计算 公式 为 : 

7r -当前 培 度 文本 四 的 内 开拓 次 。 起 (1) 
: 当前 文本 的 分 词 总 数 

同 理 , 不 同 粒度 层次 的 IDF 值 也 不 相同 。 本 次 在 
多 粒度 语义 标注 的 标注 词 重要 性 指标 中 IDF 的 计算 根 
据 粒 度 单位 不 同 也 有 不 同 的 定义 。 

细 粒 度 中 ,以 段 为 单位 , 某 一 段 中 的 某 一 特定 词语 
的 IDF 值 表示 为 : 


该 学 术 期 刑 的 总 段 数 
该 学 术 甚 刊 中 出 现 该 词语 的 鼎 数 


式 (2) 
中 粒度 中 ,以 章 为 单位 , 某 一 章 中 的 某 一 特定 词语 
的 IDF 值 表示 为 : 


IDF, = lg 该 


71DP = log 


学 术 期 列 的 总 人 
3 的 草 数 


式 (3 ) 
粗 粒 度 中 ,以 章 为 单位 , 某 学术 期 刊 文档 中 的 某 一 
特定 词语 的 IDF 值 表示 为 : 


学 术 期 刑 文档 ， 总 数 
8 内 更 该 词语 的 学 术 甚 刊 文档 数 


式 (4) 

分 别 计算 各 个 标注 粒度 单位 中 的 各 候选 词 的 TF、 
IDF 值 后 ,二 者 相 乘 即 可 得 词语 对 应 的 绝对 TF -IDF 
值 ,然后 使 用 "最 大 最 小 值 ”的 归 一 化 处 理 方 法 将 所 有 
的 TF-IDF 值 映射 到 区 间 [0 ,1 ] ,使 数值 易于 比较 。 

(2) 位 置 。 重 要 性 指标 中 位 置 指标 采用 直接 赋值 
方法 ,依据 位 置 指标 的 下 级 指标 设置 , 若 某 一 候选 词 出 
现 于 "文本 标题 “关键 词 “ 章 节 标 题 ”3 个 重要 位 置 ， 
则 为 其 三 级 指标 赋值 为 1,3 个 三 级 指标 互 不 干扰 , 若 
某 候 选 词 同 时 出 现在 其 中 两 个 及 以 上 位 置 时 可 分 别 赋 
值 , 再 代入 计算 公式 乘 以 权重 。 

(3) 词 性 。 在 标注 过 程 中 的 词性 筛选 可 以 快速 过 
滤 众 多 不 具有 标注 意义 的 词语 。 本 方法 在 对 词语 的 重 
要 性 评估 指标 中 经 分 析 设置 了 “名 词 词性 ”的 重要 性 
加 成 ,该 三 级 指标 依然 采用 直接 赋值 方法 , 即 名 词性 候 
选 词 该 指标 赋值 1 , 非 名 词性 候选 词 该 指标 则 为 0 ,再 
代入 计算 公式 乘 以 权重 。 因 此 在 该 计算 方法 中 , 当 该 
候选 词 有 多 个 词性 时 , 则 以 它 在 当前 粒度 单位 文本 中 
使 用 的 词性 为 主 , 若 仅 在 当前 粒度 单位 文本 中 就 出 现 
多 种 词性 , 则 有 名 词 词 性 即 可 赋值 为 1, 知 无 名 词 词 
性 ,由 于 并 不 影响 其 重要 性 得 分 计算 , 则 可 按照 字 顺 选 
择 。 

(4) 词 间 关 系 。 候 选 词 重 要 性 评估 指标 中 的 词 间 
关系 指 较 粗 粒度 单位 中 的 候选 词 与 上 一 较 细 粒度 的 标 
注 词 之 间 的 关系 ,可 分 为 三 大 类 ;等同 关 系 ”“ 等 级 关 
系 ”“ 相 关 关 系 ”。 本 方法 使 用 (汉语 主题 词 表 》 作 为 标 
注 使 用 的 情报 检索 语言 ,其 中 的 词 间 关 系 与 评估 指标 

“ 词 间 关系 ”下 3 个 评估 指标 的 对 应 如 下 : 等同 关系 ” 
对 应 《汉语 主题 词 表 》 中 的 “用 (Y)” 和 “ 代 (D)”;“ 等 
级 关系 ”对 应 “ 属 (S)” 分 (F)” 和 “ 族 (Z)”;“ 相 关 关 
系 ” 对 应 “ 参 (C)”。 


IDF, = log 
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该 重要 性 评估 指标 依然 采用 直接 赋值 方法 , 当 较 
粗 粒 度 单位 的 标注 候选 词 与 上 一 层次 较 细 粒度 单位 的 
标注 词 之 间 存 在 有 ”等 级 关系 ”等 同 关 系 ”“ 相关 关 
系 ” 其 中 一 种 时 即 给 该 三 级 指标 赋值 1。 其 中 ,就 当前 
候选 词 与 上 一 层次 较 细 粒度 单位 的 某 一 特定 标注 词 而 
言 ,3 种 关系 互 不 交叉 , 即 在 两 个 特定 的 词 间 只 能 选择 
关系 表达 最 为 准确 的 一 个 词 间 关系 指标 赋值 ,从 而 避 
免 重复 赋值 ; 另 一 方面 ,就 当前 候选 词 与 上 一 层 较 细 粒 
度 单位 的 所 有 标注 词 而 言 , 则 可 与 不 同 标注 词 具 有 多 
种 类 型 的 关系 ,但 一 种 类 型 的 关系 仅 赋值 一 次 ,不 多 次 

累加 赋值 。 其 中 需要 特别 说 明 的 是 ,在 最 细 粒 度 的 标 
注 中 由 于 不 存在 更 细 粒 度 的 标注 结果 ,所 有 标注 候选 
词 的 此 项 指标 得 分 均 为 0。 

T = 用 变量 TI 表示 当前 候选 词 在 当前 标注 粒度 文本 
中 全 TF-IDF 值 , 在 不 同 标注 粒度 文本 中 同一 个 候选 词 
二 不同 的 TPJIDF 值 , 应 当 在 每 个 粒度 标注 中 重新 计 
量 DT .KW .CT 分 别 表 示 当 前 候选 词 是 否 出 现在 
术 标 题 关键 词 .章节 标题 位 置 , 若 当前 候选 词 出 现 
在 该 位 置 则 赋值 为 1 ,否则 赋值 为 0; 变量 N 表示 当前 
例 虽 启 是否 为 名 词 ,若是 名 词 则 赋值 为 1, 和 否则 赋值 为 
0 2 当 该 候选 词 有 多 个 词 性 时 则 以 它 在 当前 粒度 单位 文 
EP 使 用 的 记 性 为 主 , 知 仅 在 当前 粒度 单位 文本 中 就 
由 现 多 种 词 性 , 则 有 和 名词 词 性 即 可 赋值 为 1; 变量 了 上 
G, 到 分 别 表示 当 前 候选 词 是 否 与 上 一 层次 粒度 标注 忆 
生产 等 同 关系 、 等 级 关系 、 相 关 关 系 , 若 有 则 赋值 为 1， 
否则 赋值 为 0， 候选 词 与 某 一 特定 词 间 仅 能 选择 表达 

最 硒 适 的 一 种 词 间 关 系 ,不 与 其 他 关系 重复 赋值 ,而 就 
候 入 词 所 在 的 整个 词汇 关系 网 络 而 言 ,该 候选 词 则 可 
具备 所 有 类 型 的 词 间 关系 ,但 这 些 关 系 不 重复 累加 赋 
值 。 那 么 候选 词 i 在 当前 标注 粒度 文本 中 的 重要 性 得 
分 则 可 由 公式 (5 ) 得 出 : 

T1, ~ MIN( T7) 
”MAX(CTT) SMINCTT) 


4 + (DT + KW, + 


式 (5) 

通过 公式 (5) 可 以 计算 得 出 在 当前 标注 粒度 文本 
中 各 个 候选 词 在 “TF -IDF”" “位置 "“ 词 性 ”“ 词 间 关 
系 ”4 个 方面 的 综合 重要 性 得 分 ,将 得 分 由 高 至 低 降序 
排序 ,根据 标注 需要 即 可 选取 适当 数量 的 候选 词 作为 
当前 粒度 文本 的 标注 词 。 结 合 学 术 期 刊 的 多 粒度 划分 
结构 ,由 下 至 上 依次 完成 各 个 粒度 文本 的 标注 词 选取 ， 
最 终 构 成 与 学 术 期 刊 粒 度 层次 结构 对 应 的 多 粒度 标注 
结果 。 


1 
CT.) * 广 tN +(E + +R,) * 7 
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4.4 学 术 期 刊 文本 资源 多 粒度 标注 结果 的 表示 

SKOS 是 基于 RDF 的 描述 语言 ,它们 的 基本 格式 
均 采 用 了 XML 格式 ,因此 本 文 在 学 术 期 刊 文本 资源 多 
粒度 标注 结果 的 表示 中 继续 使 用 XML 语言 进行 描述 ， 
这 样 一 方面 不 会 与 SKOS 资源 描述 框架 产生 冲突 ,可 
直接 风 套 使 用 , 男 一 方面 XML 的 可 扩展 性 通过 自 定 义 
标签 可 以 方便 地 定义 标注 结果 的 多 粒度 层次 ,保留 结 
构 信 息 。 

XML 可 扩展 标记 语言 允许 用 户 自 定义 标签 标识 
结构 化 文档 文 容 ,本 文 使 用 3 个 标签 组 < document > 
</document > 、< chapter > </chapter > 、< paragraph 
> </paragraph > 来 分 别 标识 粗 粒 度 .中 粒度 、. 细 粒度 
标注 层次 。 多 粒度 标注 结果 的 文档 结构 如 图 6 所 示 : 
<rdf:RDF 


xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” 
xmlns:rdf=”http://www.w3.org/2004/02/skos/core#”> 


<document> 
<skos:Concpet rdf:about=” 粗 粒度 标注 词 "/> 
<chapter> 
<skos:Concpet rdf:about=” 粗 粒度 标注 词 ”/> 
<paragraph> 
<skos:Concpet rdf:about=” 细 粒度 标注 词 ”/> 
</paragraph> 


<paragraph> 
<skos:Concpet rdf:about=” 细 粒度 标注 词 "/> 
</paragraph> 


</chapter> 

<chapter> 

<skos:Concpet rdf:about=”" 中 粒度 标注 词 "/> 
<paragraph> 

<skos:Concpet rdf:about=” 细 粒度 标注 词 "/> 
</paragraph> 

<paragraph> 

<skos:Concpet rdf:about=” 细 粒度 标注 词 "/> 
</paragraph> 

</chapter> 


</document> 
</rdf:RDF> 


图 6 多 粒度 标注 结果 的 文档 结构 示意 


5 基于 SKOS 的 学 术 期 刊 文本 资源 多 


粒度 语义 标注 实证 研究 
5.1 实验 基本 设 定 
本 次 实证 研究 对 象 选取 了 《中 国 图 书馆 学 报 》2016 


年 第 5 期 上 顾 立 平 学 者 发 表 的 一 篇 理论 研究 型 期 刊 论 
文 《数据 治理 一 一 图 书馆 事业 的 发 展 机 遇 》”。 该 篇 
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期 刊 论 文具 有 两 个 显著 特点 : 
(1) 单 一 作者 。 单 一 作者 的 论文 保证 了 学 术 期 乔 
前 后 观点 的 一 致 性 与 问题 论述 的 系统 性 ,学 术 期 刊 内 
部 的 逻辑 结构 连贯 一 体 ,将 更 好 地 反映 一 种 独立 思维 
对 某 一 学 术 问 题 的 完整 思考 过 程 ,各 个 粒度 间 的 相关 
关系 更 加 突出 。 

(2) 结构 严 说。 该 篇 期 刊 论文 以 “数据 治理 是 图 
书馆 事业 的 发 展 机 遇 ” 为 论点 ,全 文 围绕 该 主题 分 别 从 
“数据 获取 治理 "“ 数 据 共享 治理 ”"“ 数 据 重用 治理 ” 
“数据 加 值 治理 "4 个 子 方面 展开 论述 ,形成 了 典型 的 
“总 -分 -总 "的 结构 。 严 谨 的 内 部 结构 使 得 粒度 划 
分 更 加 清晰 ,各 粒度 间 主 题 更 加 明显 ,同一 并 列 粒度 音 
位 间 差异 显著 且 不 同 层次 粒度 单位 间 关 系 密切 。 

一 因此 ,该 期 刊 论文 既 对 学 术 期 刊 有 较 好 的 代表 性 ， 
也 寻 本 方法 有 较 好 的 适应 性 , 本文 将 以 该 文本 为 标注 
对 煞 进 行 基于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 的 实 
证 各 完 ,以 验证 该 方法 的 可 行 性 与 标注 效果 。 

5 全 实验 对 象 粒度 划分 

0O 分 析 该 学 术 期 刊 论文 的 组 织 结构 ,并 在 文本 内 部 


并 在 下 一 层级 的 粒度 单位 继续 依次 编号 ,那么 全 文 标 
题 位 置 即 为 “010000”, 关 键 词 位 置 即 为 “010001”。 

层级 组 合式 的 编号 一 方面 给 每 一 个 粒度 单位 都 赋 
了 予 了 唯一 的 编号 , 另 一 方面 也 十 分 利于 接 下 来 的 标注 
工作 中 对 任 一 粒度 单位 内 容 的 读 取 和 标注 ,如 对 中 粒 
度 的 标注 时 只 需 区 别 位 置 编 号 中 “B” 位 置 即 可 。 
5.3 ”实验 对 象 多 粒度 分 词 

对 待 标注 的 学 术 期 刊 论文 粒度 划分 完成 后 ,就 要 
分 别 对 各 个 粒度 单位 进行 分 词 。 使 用 NLPIR 分 词 工 
具 对 待 标注 文本 的 各 个 粒度 单位 内 容 进行 分 词 ,该 工 
有 具 提供 了 多 种 分 词 方法 与 可 供 使 用 的 词性 标注 集 , 经 
使 用 试验 文本 分 词 后 的 结果 初步 比较 ,本 次 实证 选择 
使 用 其 最 大 匹配 的 分 词 方法 与 ICTPOS 一 级 词性 标注 
集 。 

完成 对 学 术 期 刊 论文 的 分 词 后 ,还 需 去 除 分 词 结 
果 中 的 停 用 词 ,得 到 标注 词 的 候选 词 ,为 每 个 词语 赋予 
位 置信 息 后 导出 为 EXCEL 格式 ,进入 下 一 步 的 标注 词 
选取 计算 。 其 中 , 停 用 词 表 使 用 由 哈尔滨 工业 大 学 发 


收 竺 结构 的 基础 上 进行 粒度 划分 ,依照 4. 1 中 所 构建 
的 标注 框架 ,将 该 学 术 期 刊 论文 的 粒度 划分 表示 为 树 
状 图 ,如 图 7 所 示 : 


[= 


章 | | 第 四 章 二 下 六 训 第 七 章 
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图 7 待 标注 学 术 期 刊 论文 文本 资源 的 粒度 层次 


aX 
二 


粒度 划分 完成 后 ,为 了 方便 接 下 来 的 标注 工作 ,还 
需要 对 每 个 粒度 单位 进行 唯一 编号 。 在 该 等 级 结构 中 
本 方法 采用 了 组 合式 编号 方法 , 即 给 每 个 粒度 单位 一 
个 “ABC” 的 编码 ,其 中 A 为 全 文 文档 编号 ,B 为 A 文档 
中 的 章节 编号 ,C 为 B 章节 中 的 段落 编号 , 层 层 递 进 构 
成 每 个 粒度 单位 的 唯一 编号 ,A、B、C 的 具体 表示 可 根 
据 实际 需求 进行 设 定 。 如 在 本 次 实证 研究 中 通过 对 竺 
标注 学 术 期 刊 的 结构 分 析 ,A、B、C、 均 采用 了 十 进 制 二 
位 数 ,那么 例如 第 一 章 第 二 段落 的 文中 位 置 表示 即 为 
“010102”。 

其 中 特别 的 , “标题” 位 置 以 “00” 表示 ,如 第 二 划 
标题 位 置 即 为 “010200” ;全 文 标题 关键 词 等 不 属于 任 
何 章节 的 位 置 ( 即 在 某 一 划分 层级 为 空 ) 以 ”00 ”补缺 ， 


布 的 停 用 词 表 扩 展 版 。 去 除 停 用 词 后 ,部 分 标注 候选 
词 如 表 3 所 示 : 
表 3 预 处 理 后 部 分 标注 候选 词 ( 粗 粒度 ) 


词 词性 位 置 
创新 v 010100 
创新 驱动 n 010100 
引言 n 010100 
变革 v 010101 
标准 010101 
财富 n 010101 
成 就 n 010101 
承担 v 010101 
持续 v 010101 
存储 v 010101 
大 众 n 010101 
反映 v 010101 
方式 n 010101 
方向 n 010101 


5.4 实验 对 象 多 粒度 标注 词 选取 计算 

依照 标注 候选 词 重要 性 评价 指标 ,使 用 4.3 节 中 
各 指标 的 得 分 的 计算 方法 分 别 计 算 各 个 粒度 单位 文本 
中 的 各 个 标注 候选 词 的 各 项 指标 得 分 ,最 终 得 到 每 个 
标注 候选 词 的 重要 性 总 得 分 。 需 要 特别 说 明 的 是 ,在 
本 次 实证 研究 中 由 于 难以 获取 检索 系统 中 的 所 有 文 
档 ,因此 粗 粒度 中 的 TF-IDF 值 暂 由 TF 值 代 替 进 行 组 
粒度 中 候选 词 重要 性 的 计算 。 
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依次 由 细 粒 度 至 粗 粒 度 层 次 计算 各 标注 候选 词 的 文本 单位 以 重要 性 得 分 前 三 位 者 为 标注 词 , 粗 粒度 文 
重要 性 总 得 分 ,由 高 至 低 排 序 后 根据 需要 选择 标注 词 。 本 单位 以 重要 性 得 分 前 五 位 者 为 标注 词 。 
的 数量 。 考 虑 标注 词 的 数量 与 文本 长 度 相 匹 配 ,一 般 以 中 粒度 标注 单位 为 例 , 部 分 候选 词 重要 性 计算 
来 说 , 细 粒 度 文本 单位 以 得 分 最 高 者 为 标注 词 ,中 粒度 WA 
表 4 ”部 分 候选 词 重 要 性 得 分 计算 结 


昭 


司 词性 词性 得 位 置 篇 标题 节 标题 关键 局 TE IDF TF-IDF TF-IDF 得 分 等 同 关系 等 级 关系 相关 关系 总 得 分 
经 济 n 101 0 0 0 0.025 540 275 0.243 038 049 0.006 207 259 0.747 722 627 0 0 0 0.436 930 657 
创新 驱动 n 101 0 1 0 0.003 929 2730,.845 098 C4 0.003 320 621 0 0 0 0 0.433 333 333 
| 数据 治理 n 101 1 0 1 0.001 964 637 .0,146 128 036 0.000 287 083 0.034 582 505 1 0 0 0.508 645 626 
数据 共享 n 101 0 1 1 0.001 964 637 0 0 0 1 0 0 0.5 
人 类 n 101 0 0 0 0.005 89391 0.84509804 0.004 980531 0.6 0 0 0 0.4 
机 遇 n 101 1 0 0 0.003 929 273 0.544 068 044 0.002 137 792 0.257 517 125 o 0 0 0.397 712 615 
引言 n 101 0 1 0 0.001 964 6370.845 098 04 0.001 650 31 0.2 0 0 00.383333 333 
价值 n 101 0 0 0 0.015 717 092.0,243 038 049 0.003 819 851 0.460 137 001 0 0 0 0.365 034 25 
烤 据 驱动 n 1'01 0 1 0 0.003 929 273 0.243 038 049 0.000 954 963 0.115 034 25 0 0 0 0.362 091 896 
知识 n 101 0 1 0 0.013 752 456 0.066 346 739 0.000 920 683 0.110 904 89 0 0 0 0.361 059 556 
服务 对 象 n 101 0 1 0 0.001 964 637 0,367 976 785 0.000 722 941 0.087 084 993 0 0 0 0.355 104 582 
查询 数据 n 101 0 o 0 0.003 929 273 0.845 098 04 0.003 320 621 人 0. o 0 o 0.35 
友 众 n 1'01 9 0 0 0.003 929 2730.845 098 04 0.003 320 621 0 0 0 0 0.35 
地 方 n 101 0 0 0 0.003 929 273 0,845 098 04 0.003 320 621 0 0 0 0 0.35 
古国 家 竞争 jn 101 0 0 0 0.003 929 273 0.345 098 04 0.003 320 621 0.4 0 0 0 0.35 
时 史 n 101 0 0 0 0.003 929 273 0,.845 098 04 0.003 320 621 0 0 0 0 0.35 
源 n 1'01 0 0 0 0.003 979 273 0,845 098 04 0.003 320 621 0 o 0 0 0.35 
Dana n 101 0 0 0 0.003 929 273 0.845 098 04 0.003 320 621 0.4 0 0 o 0.35 
旋 n 101 0 0 0 0.003 929 273 0,.845 098 04 0.003 320 621 0 1 0 0 0.433 333 333 
CG‘ 二 业 n 101 0 0 0 0.003 929 273 0.845 098 04 0.003 320 621 0 o 0 0 0.35 
人 新 型 知识 n 101 0 0 0 0.003 929 273 0.845 098 04 0.003 320 621 0 1 0 0 0.433333 333 
列 n 101 0 0 0 0.003 929 2730,845 09804 0.003 320621 全 二 六 0 0 0.433 333 333 
代 n 1'01 0 1 0 0.001 964 637 0.243 038 049 0.000 477 481 0.057 517 125 日 0 0 0.347712 615 
学 n 101 0 0 1 0.031434 185 0 0 0 0 0 0 0.333 333 333 
Ca n 101 0 0 0 0.005 893 91 0,367976 785 0.002 168 822 0.261 254 98 0 0 0 0.315 313 745 


从 表 4 数据 中 可 以 得 出 该 学 术 期 刊 的 中 粒度 标注 该 粒度 单位 的 标注 词 。 本 次 细 粒 度 文本 单位 以 得 分 最 
虚线 一 章节 的 标注 词 为 "经 济 “ 数 据 治理 “数据 共 ， 高 者 为 标注 词 ,中 粒度 文本 单位 以 重要 性 得 分 前 三 位 


¥N 者 为 标注 词 , 粗 粒度 文本 单位 以 重要 性 得 分 前 五 位 者 
5, 命 实验 对 象 多 粒度 标注 结果 为 标注 词 ,该 学 术 期 刊 各 粒度 单位 的 标注 结果 如 表 5 


完成 各 个 粒度 单位 标注 翁 先 词 的 重要 性 得 分 计算 所 示 : 
局 芥 别 为 每 个 粕 度 单位 选取 适当 数 生 的 候选 记 作为 


表 5 多 粒度 标注 词 选 取 结 
Wi 


焰 记 层次 文 内 结构 标注 词 

粗 粒 度 全 文 数据 治理 ,数据 共享 数据 重用 ,数据 加 值 .开放 数据 

中 粒度 第 一 章 经 济 .数据 治理 ,数据 共享 
第 二 章 企业 家 数据 治理 ,数据 加 值 
第 三 章 数据 获取 治理 ,数据 治理 ,数据 重 / 
第 四 章 生态 系统 .开放 数据 、 地 球 
第 五 章 数据 重用 洪水、 开放 数据 
第 六 章 数据 加 值 ,数据 治理 ,数据 重用 
第 七 章 图 书馆 事业 数据 治 理 ,数据 加 值 

细 粒 度 。” ”第 一 章 段落 。 ”数据 共享 /战略 /特征 /经 济 / 序 列 /设施 /报告 /新 型 知识 
第 二 章 段 落 。 ”科学 /步骤 /企业 家 /公民 /行业 /数据 治理 /数据 工程 师 /Analyst/ 管 家 /角度 /数据 馆 员 / 需 求 
第 三 章 段 落 。 ”数据 获取 /政策 /开放 数据 /PLos/ 数 据 管理 /数据 获取 治理 /搜索 引擎 /病历 记录 /利润 /哈佛 大 学 
第 四 章 段 落 。 ”数据 共享 /地 球 /物种 /内 海 /生命 /EMIF/ 药 物 /患者 /人 类 大 脑 /注释 /效用 /载体 /数据 共享 /美国 /CODATA/RDA/ 生 态 系统 
第 五 章 段 落 。 ”数据 重用 /洪水 /手机 /智能 /假设 /数据 管理 /数据 重用 /DDB/ 数 据 重用 /同行 /CC/ 开 放 数 据 
第 六 章 段 落 。 ”数据 加 值 /数据 加 值 /收入 /文本 /数据 加 值 /技能 
第 七 章 段 落 放 获 取 / 课 程 / 数 据 治理 /数据 治理 /开放 许可 协议 /图 书馆 事业 /动力 
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将 以 上 标注 词 使 用 SKOS 词汇 进行 概念 描述 并 使 
用 XML 结构 化 文档 进行 组 织 , 可 得 到 最 终 该 学 术 期 刊 
的 标注 XML 文档。 部 分 标注 文档 示例 如 图 8 所 示 : 
<rdf:RDF 
xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#” 


xmlns:rdf=”http://www.w3.org/2004/02/skos/core#”> 
<document> 


<skos:Concept rdf:about=”http://www.example.com/concepts# 数 据 共享 ”> 
<skos:prefLabel>Data sharing</skos:prefLabel> 

<skos:related rdf:resource=”http://www.example.com/concepts# 信 息 共 享 "> 
</skos: Concept> 


<chapter> 

<skos:Concept rdf:about=”http://www.example.com/concepts# 经 济 ”> 

<skos:preflLabel>Economy</skos: prefLabel> 

<skos:related rdf:resource=”http://www.example.com/concepts# 部 门 经 济 ”> 

<skos:related rdf:resource=”http://www.example.com/concepts# 各 科 经 济 > 

<skos:related rdf:resource=”http://www.example.com/concepts# 经 济 理论 "> 

<skos:related rdf:resource=”http://www.example.com/concepts# 经 济 学 ”> 

<skos:related rdf:resource=”http://www.example.com/concepts# 区 域 经 济 ”> 
可 skos:Concept> 


<paragraph> 
os:Concept rdf:about=”http://www.example.com/concepts# 战 略 ”> 
veteranmetatet 
os:altfLabel> 军 事 谋略 </skos:altfLabel> 
(Chkos.altfLabel> 战 略 对 策 </skos:altfLabel> 
Cos:related rdf:resource=”http://www.example.com/concepts# 谋 略 ”> 


opt 
CO 


< 


</skos: Concept> 


os:Concept rdf:about=”http://www.example.com/concepts# 图 书馆 事业 ”> 
«skos:prefLabel>Librarianship</skos:prefLabel> 
<skos:related rdf:resource=”http://www.example.com/concepts# 比 较 图 书馆 学 ”> 


os:related rdf:resource=”http://www.example.com/concepts# 图 书馆 学 ”> 
a ms/Skos: Conce pt> 


DLena pter> 


< 各 mn 
/br> 
© 
图 8 基于 SKOS 的 学 术 期 刊 论文 多 粒度 语义 
标注 部 分 XML 文档 示例 


5.6 实验 结果 评估 

由 于 目前 还 没有 任何 多 粒度 标注 的 应 用 ,因此 本 
次 实证 研究 仅 能 以 当前 检索 系统 内 使 用 的 该 学 术 期 刊 
论文 的 标注 结果 为 对 照 组 ,由 于 二 者 在 标注 结果 方面 
不 能 完全 对 应 ,在 评估 比较 过 程 中 本 文 以 检索 效果 的 
定性 分 析 作为 评 佑 内容 。 

本 文 在 评估 过 程 中 借用 “ 查 全 ”“ 查 准 ” 两 个 概念 
对 多 粒度 语义 标注 效果 在 相同 检索 式 的 情况 下 与 目前 
使 用 的 标注 结果 进行 理论 分 析 对 比 , 找 出 多 粒度 语义 
标注 结果 在 检索 过 程 中 可 能 对 检索 系统 的 查 全 率 与 查 
准 率 产生 的 影响 。 除 此 之 外 ,检索 过 程 中 依据 标注 结 
果 为 用 户 提供 的 内 部 特征 的 检索 入 口 ,检索 反馈 结 


的 形式 等 也 是 影响 用 户 检 索 结果 和 利用 效果 的 重要 功 
能 ,因此 也 可 作为 对 多 粒度 标注 结果 的 参考 评估 指标 。 

以 该 篇 学 术 期 刊 论文 在 CNKI 中 的 检索 情况 为 参 
照 组 ,对 比分 析 基 于 SKOS 的 多 粒度 标注 结果 的 检索 
性 能 ,以 评估 该 方法 的 效用 。 具 体 的 比较 结果 如 表 6 
所 示 : 

表 6 ”基于 SKOS 的 学 术 期 刊 论文 多 粒度 标注 
结果 检索 性 能 评估 


评估 指标 CNKI 多 粒度 标注 
内 部 特征 检索 人口 “篇 名 ,关键 词 摘要、 全 文 主题 .章节 主题 、 
全 文 段落 主题 
检索 结果 反馈 形式 文档 文档 ,章节 段落 
查 全 检索 式 匹 配 结果 ”可 通过 词 间 语 义 关系 进行 拓展 
查 准 检索 式 匹配 结果 。 ”对 文档 的 内 容 检索 更 加 准确 


(1) 从 检索 系统 可 能 提供 的 文档 内 部 特征 的 检索 
入 口 来 看 ,目前 CNKI 检索 系统 中 一 般 提供 以 自然 语 
言 直接 匹配 的 “篇 名 、 关 键 词 .摘要 全文"4 个 文档 内 
部 特征 的 检索 入 口 ,CNKI 提供 的 “主题 "检索 入 口 是 
“篇 名 、 关 键 词 摘要 ”3 个 检索 入 口 的 集合 ,因此 不 算 
做 单独 检索 入 口 。 多 粒度 的 语义 标注 提供 了 3 个 粒度 
的 内 容 检索 人口 ,分 别 为 全 文 主题 .章节 主题 和 段落 主 
题 。 二 者 提供 了 不 同体 系 的 检索 入 口 ,二 者 不 同 的 检 
索 入 口 之 间 相 互补 充 构 成 整体 ,很 难 对 比 哪 种 更 好 ,但 
知 以 二 者 其 中 基本 相当 的 篇 名 入 口 和 粗 粒 度 检 索 入 口 
为 例 , 当 CNKI 中 以 篇 名 检索 该 篇 学 术 期 刊 论文 时 ,以 
检索 词 “ 数据 治理 “图 书馆 ”图 书馆 事业 ”发 展 机 
遇 ” 等 与 篇 名 “数据 治理 一 一 图 书馆 事业 的 发 展 机 遇 ” 
匹配 可 获得 反馈 检索 结果 。 在 多 粒度 标注 的 检索 中 ， 
以 相应 的 粗 粒 度 为 例 , 其 标注 词 为 "数据 治理 “数据 
共享 “数据 重用 “数据 加 值 “ 开 放 数 据 ” ,那么 将 以 
上 标注 词 作为 检索 词 均 可 获得 该 篇 学 术 期 刊 论文 。 二 
者 相 较 ,前 者 直接 以 标题 核心 词 作 为 该 学 术 期 刊 论文 
的 主题 ,后 者 通过 由 下 至 上 的 多 粒度 标注 后 得 到 该 学 
术 期 刊 论文 的 主题 ,实现 了 对 核心 主题 的 扩展 ,对 全 文 
的 主题 描述 更 加 丰富 ,但 也 丢失 了 如 “图 书馆 事业 ”这 
一 主题 的 限制 ,这 一 结果 有 利 有 兹 ,在 实际 的 检索 过 程 
中 则 可 以 在 中 粒度 、 细 粒度 的 标注 结果 中 对 丢失 的 主 
题 信息 进行 补充 。 

(2) 从 检索 结果 的 反馈 形式 来 看 ,目前 CNKI 仅 能 
反馈 给 检索 用 户 文档 单位 , 即 粗 粒度 内 容 。 多 粒度 的 
语义 标注 结果 可 对 文档 进行 不 同 层次 结构 的 组 织 ,在 
用 户 检 索 反 馈 中 可 同时 呈现 不 同 粒度 大 小 的 检索 结 
果 , 可 以 是 完整 文档 ,可 以 是 某 一 文档 中 与 检索 主题 相 
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关 的 某 一 章节 ,其 至 是 某 一 文档 中 与 检索 相关 的 某 一 
具体 段落 ,用 户 可 根据 个 性 化 的 信息 需求 进行 选择 或 
在 检索 结果 中 进行 过 滤 ,直接 保留 某 一 粒度 的 检索 结 


[sal 
人 信 o 


(3) 从 标注 结果 对 检索 系统 的 查 全 率 影响 来 看 ， 
目前 CNKI 中 的 文档 标注 结果 不 能 直接 提高 检索 的 查 
全 效果 , 查 全 率 的 保障 主要 依靠 检索 用 户 在 检索 式 构 
建 中 的 检索 技巧 ,如 同义词 .相关 词 的 扩展 等 。 基 于 
SKOS 的 学 术 期 刊 多 粒度 语义 标注 结果 自身 已 具备 了 
叙 词 表 中 存在 的 词 间 关 系 ,可 通过 等 同 关系 、 等 级 关 
系 、 相 关 关 系 等 语义 关系 的 获取 扩大 检索 范围 而 不 必 
增加 检索 用 户 的 智力 负担 。 

(4) 从 标注 结果 对 检索 系统 的 查 准 率 影响 来 看 ， 
尽管 难以 判断 两 种 标注 结果 对 检索 系统 查 准 率 的 影 
响 组 在 一 定 程度 上 来 说 作为 查 全 率 的 互 逆 概 念 ,在 检 
索 双 统 查 全 率 能 够 明显 提升 的 情况 下 往往 查 准 率 会 相 
万 已 降 。 但 如 果 仅 考虑 检索 结果 中 反馈 的 主题 相关 内 
窑 抽 于 多 粒度 语义 标注 对 文档 内 部 的 章节 、 段 落 信息 
都 络 过 了 严格 的 标注 处 理 ,在 对 文档 内 容 的 检索 方面 ， 
荐 号 单 纯 的 字面 匹配 的 全 文 检索 相 比 则 显然 会 更 加 准 


| 


) 当 然 , 基 于 SKOS 的 学 术 期 刊 多 粒度 语义 标注 也 
带 来 一 些 缺点 。 当 完全 依赖 叙 词 表 对 学 术 期 乔 
进行 标注 时 ,必然 会 出 现 自然 语言 与 受 控 语言 难以 匹 
醒 移 情况 ,上 且 人 氢 词 表 中 仅 呈 现 基于 学 科 的 概念 间 的 简 
单 尖 系 ,无 法 揭示 个 性 化 丰富 的 概念 联系 ,使 得 较 专业 
构建 的 领域 本 体 而 言 , 可 以 利用 的 语义 关系 又 减 ,甚至 
有 时 会 增加 无 关 的 相关 关系 ,出 现 标注 结果 的 宛 余 。 
此 外 ,多 粒度 的 标注 结果 较 单一 粒度 明显 增多 ,检索 系 
统 的 信息 处 理 存储、 检索 过 程 中 的 匹配 计算 等 都 必 将 
更 加 复杂 并 产生 一 些 新 的 问题 ,检索 系统 的 负担 必然 
加 重 。 


6 总 结 


本 研究 以 语义 标注 相关 理论 为 理论 基础 ,以 SKOS 
相关 技术 为 技术 基础 ,提出 了 基于 SKOS 的 学 术 期 刊 
文本 资源 多 粒度 语义 标注 方法 并 进行 了 实证 研究 。 该 
方法 主要 具有 两 方面 的 优势 :GOSKOS 是 目前 叙 词 表 描 
述 的 最 佳 方案 , 较 RDF 与 OWL 语言 而 言 ,SKOS 对 概 
念 与 关系 的 描述 更 加 灵活 且 标准 化 ,维护 操作 简单 , 基 
于 SKOS 可 以 实现 多 层次 的 检索 ,基于 叙 词 表 可 以 实 
现 自动 的 检索 扩展 ;@ 多 粒度 的 语义 标注 可 满足 用 户 
对 不 同 粒度 知 识 单位 的 需求 ,丰富 地 揭示 不 同文 档 同 
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一 粒度 层次 和 同一 文档 不 同 粒 度 层 次 之 间 的 语义 关 
通过 实证 研究 ,以 当前 检索 系统 的 标注 结果 为 参 
照 组 ,分 别 从 “ 查 全 ”“ 查 准 "“ 内 部 特征 检索 入 口 "“ 检 
索 结 果 反 馈 形 式 ”4 个 方面 对 比分 析 了 标注 结果 的 优 
势 与 缺点 。 
本 研究 仅 是 利用 SKOS 化 的 氢 词 表 对 学 术 期 刊 文 
本 资源 进行 多 粒度 语义 标注 的 初步 尝试 , 仍 有 一 些 问 
题 值 得 进一步 深入 研究 :本 方法 仅 使 用 了 单一 的 叙 词 
表 作 为 标注 工具 , 接 下 来 还 可 以 尝试 使 用 多 个 叙 词 表 
进行 语义 标注 ,其 中 将 会 涉及 多 个 叙 词 表 之 间 的 异 构 
问题 .不同 体系 的 概念 及 语义 关系 的 映射 问题 标注 中 
选择 词 表 的 优先 性 问题 等 。 但 使 用 多 个 叙 词 表 进 行 语 
义 标 注 显 然 可 以 使 标注 内 容 更 加 丰富 ,一 定 程 度 上 能 
够 解决 目前 一 些 概念 和 关系 难以 描述 的 问题 。 此 外 ， 
基于 SKOS 的 学 术 期 刊 文本 多 粒度 语义 标注 的 未 来 应 
用 必然 不 能 离开 相关 工具 ,系统 .平台 的 开发 。 本 研究 
仅仅 只 是 尝试 ,在 实证 阶段 也 仅 针 对 少量 样本 进行 了 
方法 的 实验 ,未 来 还 需 在 方法 进一步 完善 的 基础 上 开 
发 相关 的 工具 系统 ,以 促进 该 方法 的 实际 应 用 。 
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‘Abstract: | Purpose/significance | Semantic annotation for academic journals is facing two major problems which 


low to embody all the concepts in oneontology and mostannotation methods are single granularity semantic annotation 


medels. This paper proposes a SKOS -based multi -granularity semantic annotation method for academic journal text re- 


ee , Which holds great significance to the development of semantic annotation and provides a method to meetusers ”aca- 
deBc information demands. [Method/process | With the SKOS description of thesaurus ,this paper takes academic jour- 
" 认 fext for example to achieve a multi-granularity semantic annotation method and carry on an empirical study. [ Result/ 
conelusion | By setting up the experimental group and the control group respectively, the paper evaluates the annotation 


effeet of the SKOS based multi-granularity semantic annotation method. 
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